我是在 2021 年經由 Bryan Yang 知道這個詞彙的,他也寫過鐵人賽專文介紹。
我們是從 Simon O'Regan 這篇文章開始討論的 https://www.simonoregan.com/essays/designing-data-products
資料供給有標準規格,讓使用者能在不同的情境中利用。(過去的 ETL 大多數對標單一情境)
資料供給有版本控制並保持往前相容,以提供服務保證。
資料是企業活動的軌跡,資料價值是提煉出「企業知識」與「企業經驗」。
由於產業環境會改變與競爭,知識與經驗需要不斷累積成為「智慧」。
企業想要轉變為資料驅動,實際上就是把知識與經驗內化在系統中。為了這個不斷提純的過程,引用產品開發方法是目前最適當的方式。
資料產品經常會跟其他產品或服務結合,並非所有必須使用到資料才能運作的產品就成為「資料產品」。
只有「主要目的是供給資料使用」的產品才是資料產品。這個思考有助於我們不要「over engineering」,並非所有的資料供給都需要產品化。
Simon O'Regan 以著名的 Medium 線上部落格服務為例, Medium 的搜尋功能是資料產品,但是 Medium 的平台服務本身不是資料產品,它的服務是用來取代實體的著作發行。
機器學習模型是一種典型的資料產品,例如在 MarTech 領域,用來獲取更精確的行銷名單。
我覺得「資料產品」容易被誤解的原因,是大家的既定印象「產品」是對終端使用者的。然而,資料產品更像是「石化產業鏈」的「中間產品」,供應給中游石化業者再加工為下游消費品。
台灣大部分的企業尚在建立資料供給產業鍊的發展初期,也就是說還在挖石油與天然氣。企業內部的 Data Catalog 資料目錄尚不普及,就是證明。
圖片來源:https://scitechvista.nat.gov.tw/Article/c000003/detail?ID=45239f33-e24a-46f2-95a9-b1e57f161c7e
甚至還有 Data as a Product,Data as a Service 都跑出來了。
甚至還有把上述名詞,轉變為衡量資料團隊能力成熟度的標準。
圖片來源:https://readtechnically.medium.com/data-as-a-product-vs-data-as-a-service-d9f7e622dc55
在寫 Data Mesh 那一篇的時候,發現了一篇文章把「資料產品」多元應用的場景具象化。這是一個利用「資料產品」效率化「金融詐欺調查」的案例,它對照的是利用傳統應用系統進行調查。
圖片來源:https://www.equalexperts.com/blog/tech-focus/are-your-microservices-hiding-data-products/
我們最近在銀行業就真實遇到把 Rule-Based AML 替換成 ML-Model-Driven 的專案,專案目標是讓 AML 系統跟上法規頻繁的修正,以及節省調查人力。該案件的資料產品有兩個:
模型訓練資料規格會跟著模型更版而更版,且資料產品的測試方式也與傳統軟體有不同之處,增加了 Data Validation 的步驟。
Data Validation (資料確效)有很多跟醫學臨床試驗相似之處,後面會有一篇來討論它。